Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller Binomialfordelte data : eksakte sikkehedsintervaller Test i RxC tabeller Test i x tabeller Fishers eksakte test Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se ( θˆ for den ukendte størrelse, θ,som man er interesseret i. Et approksimativt 95% sikkerhedsinterval : θˆ±.9 se ( θˆ En specifik hypotese om at q = q 0 kan testes ved θˆ θ 0 θˆ θ 0 z = eller z = se( θˆ se( θˆ Store værdier af z (eller z er kritiske! p-værdi via standard normalfordeling eller c ( -fordeling Approksimation Den vender vi tilbage til! Nogle statistiske begreber Type fejl: At forkaste hypotesen, selvom den er sand. Type fejl: At acceptere hypotesen, selvom den er falsk. Signifikansniveau: Den grænse man sætter for den mindste p-værdi, der leder til at man accepterer hypotesen. Som regel sættes signifikansniveauet til 5%. Hvis hypotesen er sand: Sandsynligheden for type fejl =sandsynligheden for forkaste hypotesen =signifikansniveauet M.a.o. sandsynligheden for type fejl er kendt og lig signifikansniveauet (=5%. 3 Type fejl: At acceptere hypotesen, selvom den er falsk. Hvad er sandsynligheden for type fejl? Afhænger af: Hvad der så er sandt! Informationsmængden! Sandheden langt fra hypotesen fi lille ss. for type fejl Sandheden tæt på hypotesen fi stor ss. for type fejl Meget information/data fi lille ss. for type fejl Lidt information/data fi stor ss. for type fejl Statistisk styrke = - sandsynlighed for type fejl 4 Planlægning af et follow-up studie: Antagelser: KIP blandt ikke eksponerede = %. Sand relativ risiko =.0. 500 eksponerede og ikke eksponerede. 5 Øges deltagerantallet til *3000 bliver chancen for type fejl reduceret til % styrken er 89%. 00 Styrken som funktion af gruppe størrelsen : Two group test of equal proportions (odds ratio = (equal n's Æ = 0.050 ÒÁ= 0.00 ÒÂ= 0.00 Når data er indsamlet vil man teste hypotese RR=. Sandsynligheden for at få data, der leder til accept af dette (Type fejl = 39%, dvs en styrke på %. Mao. lille chance for at få bekræftet at der en sammenhæng. Ikke besværet værd! Power 90 80 70 0 50 000 500 000 500 3000 3500 Sample Size per Group
Afhænger af designet. Statistisk styrke Afhænger af statistisk metode. Relevant i planlægningsfasen. Når data er indsamlet er bredden af sikkerhedsintervaller udtryk for informationsmængden. 7 Simpel analyse af normalfordelte data Model/antagelse: Data er n uafhængige observationer fra en normalfordeling med ukendt middelvædi, µ, og spredning, σ. Estimaterne for disse er : n n µ ˆ = x = x ˆ ( i s i n σ = = n x x i= i= se( µ ˆ = se( x = σˆ n = s n Ofte kaldet sem,standard Error of the Mean Et eksakt CI for µ : x ± tn sem t n- findes i en tabel over t-fordelingen 8 3.5 3.0.5.0.5.0.5 0.0 9 Fødselsvægt for børn født af 7.gangsfødende n = 4 x = 3399g s = 4g 5.0 5.0 35.0 35.0 45.0 45.0 sem = s n = 4 4 = 7g Under antagelse af normalfordeling : x ±. sem Eksakt 95% CI for middelfødselsvægten: = 3399g ±. 7g Hvor kommer de. fra? = ( 307, 377 g Tabel over tosidige halesandsynligheder i t-fordelingen Bland side 58.3.7 3. 3..75..9 4.0.9 4.30 9.93 3.0 7.74..90 3.97 3.35 3.8 5.84.9 8.73.0.88 3.9 4.3.78 4.0 8. 9.73.09.8 3.88 5.0.57 4.03.87 0.7.09.85 3.85.94.45 3.7 5.9.7.08.83 3.8 7.89.3 3.50 5.4.7.07.8 3.79 8.8.3 3.3 5.04 3.7.07.8 3.77 9.83. 3.5 4.78 4.7.0.80 3.75 0.8.3 3.7 4.59 5.7.0.79 3.73.80.0 3. 4.44 30.70.04.75 3.5.78.8 3.05 4.3 40.8.0.70 3.55 3.77. 3.0 4. 0.7.00. 3.4 4.7.4.98 4.4 0..98. 3.37 5.75.3.95 4.07 Uendelig.4.9.58 3.9 95%=(00-5% n-=4-=3 frihedsgrader (degrees of freedom t=. Uendelig mange frihedsgrader = Standard normalfordeling 0 Simpel analyse af normalfordelte data One sample t-test Hypotese : µ= µ 0 Test : x µ 0 z = sem p-værdi: Slå op i en t-fordeling med n- frihedsgrader (ikke i en standard normalfordeling Eksemplet : Middelfødselsvægten er 3700g 3399 3700 z = =.75 Eksakt p-værdi=0.3% 7 Konklusion: Data strider ikke mod hypotesen. p-værdi vha. af tabel opslag z =.75.3.7 3. 3..75..9 4.0.9 4.30 9.93 3.0 7.74..90 3.97 3.35 3.8 5.84.9 8.73.0.88 3.9 4.3.78 4.0 8. 9.73.09.8 3.88 5.0.57 4.03.87 0.7.09.85 3.85.94.45 3.7 5.9.7.08.83 3.8 7.89.3 3.50 5.4.7.07.8 3.79 8.8.3 3.3 5.04 3.7.07.8 3.77 9.83. 3.5 4.78 4.7.0.80 3.75 0.8.3 3.7 4.59 5.7.0.79 3.73.80.0 3. 4.44 30.70.04.75 3.5.78.8 3.05 4.3 40.8.0.70 3.55 3.77. 3.0 4. 0.7.00. 3.4 4.7.4.98 4.4 0..98. 3.37 5.75.3.95 4.07 Uendelig.4.9.58 3.9 n-=4-=3 frihedsgrader (degrees of freedom z =.75 er lidt mindre end.77 p-værdien er derfor lidt større end 0%
Analyse af to sæt (uafhængige normalfordelte data Paritet n x s sem 8 35g 57g g 7 4 3399g 4g 7g Estimat for spredningen blandt 7. gangsfødende Estimat for spredningen blandt. gangsfødende 3 Estimat for fælles spredning: Nyt bud på sem erne: sem = sf n 8 = 3g Paritet n x s sem sem (fælles 8 35g 57g 3g g 7 4 3399g 4g 54g 7g sf sem = s n 4 = 54g 7 F 7 4 Et fælles estimat for spredningen : s F = ( n s + ( n s n + n 7 7 7 ( 8 57 + ( 4 4 = 8 + 4 se( x x = sem + sem = 3 + 54 = 05g 7 7 95% eksakt CI for forskel i middelfødselsvægt, µ - µ 7 : ( x x ± t se 7 ( x x7 = ( 35 3399 g ±.04 05g = ( 0, 34 g Fra t-fordeling med n +n 7 - frihedsgrader Tabel over tosidige halesandsynligheder i t-fordelingen 5 Analyse af to sæt (uafhængige normalfordelte data Two sample t-test.3.7 3. 3..75..9 4.0.9 4.30 9.93 3.0 7.74..90 3.97 3.35 3.8 5.84.9 8.73.0.88 3.9 4.3.78 4.0 8. 9.73.09.8 3.88 5.0.57 4.03.87 0.7.09.85 3.85.94.45 3.7 5.9.7.08.83 3.8 7.89.3 3.50 5.4.7.07.8 3.79 8.8.3 3.3 5.04 3.7.07.8 3.77 9.83. 3.5 4.78 4.7.0.80 3.75 0.8.3 3.7 4.59 5.7.0.79 3.73.80.0 3. 4.44 30.70.04.75 3.5.78.8 3.05 4.3 40.8.0.70 3.55 3.77. 3.0 4. 0.7.00. 3.4 4.7.4.98 4.4 0..98. 3.37 5.75.3.95 4.07 Uendelig.4.9.58 3.9 n +n 7 -=8+4-=30 frihedsgrader 95%=(00-5% z = ( x x7 δ0 se( x x µ - µ 7 = δ 0 7 p-værdi: Slå op i en t-fordeling med n +n 7 - frihedsgrader (ikke i en standard normalfordeling Eksemplet : Forskel i middelfødselsvægten er 0g ( 355 3399 0 0 z = = =.05 Eksakt p-værdi=30% 05 05 t=.04 Konklusion: Data strider ikke mod hypotesen. Kommentarer Hvis antagelsen om normalfordeling er rimelige : Fordelingen kan beskrive ved blot to tal : Middelværdi og spredning! Eksakte CI og p-værdier - ingen approksimationer! Også mulighed for at sammenligne spredninger (dækkes ikke på dette kursus Mere komplicerede modeller og analyse metoder : Variansanalyse (ANOVA Lineær regressionsmodeller Ikke-lineær regressionsmodeller Faktoranalyse +meget mere 7 Flere kommentarer Metoderne til analyse af en stikprøve fra en normalfordeling bruges ofte hvis man har parrede data: To målinger per patient, før/efter behandling Beregn efter-før=obs. behandlingseffekt Hvis disse kan antages at være normalfordelte så analyse som en stikprøve fra en normalfordeling Dette kaldes Parret t-test Hvordan checker man antagelsen om normalfordeling? Plot data - histogrammer, normal plots (Q-Q plots. Hvad siger erfaringen om tilsvarende data? 8 3
Komponenter i middelværdi og variation Altid mindst to komponenter i middelværdi og variation: Disse skyldes egenskaber ved populationen målemetoden Middelværdi = Middelværdi i populationen + Systematisk målefejl Variation = Variation i populationen + Tilfældig målefejl 9 Analyse af binomialfordelt data Data er binomialfordelt hvis : Uafhængige delforsøg Præcist to mulige udfald (dreng/pige, død/levende 3 Sandsynligheden for succes, π, er den samme for alle delforsøg. 4 Antal, n, delforsøg man betragter afhænger ikke af udfaldene. Eksempel : Antal drenge ud af 49 fødsler: ok? Enæggede tvillinger med? ok!! 0 3 ok 4 ok? Data indsamlet uden at snyde! Binomial fordelt data: x = antal succeser og n = antal observationer ukendt, men interessant π = sandsynlighed for succes x Estimation: πˆ= og se( πˆ = πˆ ( πˆ n n Approksimativt 95% CI : πˆ±.9 se( πˆ God approksimation hvis x og n-x ikke er for små Eksempel, Streptomycin, Bland Table 3.7 5 (=n personer deraf 3 (=x fået det bedre : 3 πˆ = = 0.87, se( πˆ = 0. 87 ( 0.87 5 = 0.0878 5 Approks. 95% CI: Dårlig approksimation! 0.87 ±.9 0.0878 = ( 0.95,.039 Ups! Eksakt/korrekt 95% CI ( findes vha. af tabel eller computer ( 0.594, 0.983 Morale: Hvis der er få eller mange hændelser, så er approksimationerne ikke gode! En 5 tabel Bland table 3.. Boligform og for tidlig fødsel : Housing tenure Preterm Term Total Owner-occupier 50 849 899 Council tenant 9 9 58 Private tenant 4 75 Lives with parents 7 Other 3 3 39 Total 99 344 443 Ingen sammenhæng Forventet antal preterm fødsler blandt de der bor i egen bolig : 99 899.7 443 = 3 Forventet under hvis hypotesen er sand: Housing tenure Preterm Term Total Owner-occupier.7 837.3 899 Council tenant 7.7 40.3 58 Private tenant.0 3.0 75 Lives with parents 4.9 7. 7 Other.7 3.3 39 Total 99.0 344.0 443 Et mål for forskel mellem observeret og forventet: X = alle celler ( observeret forventet forventet Er stor ved dårlig overensstemmelse! X = 0.5 4 4
Vi har fået X =0.5 Hvor ofte vil man få noget større? Slå op i en c -fordeling! Med (5-(-=4 frihedsgrader. Resultat p=0.03! Det var ikke særligt sandsynligt at få disse data hvis hypotesen er sand! Hypotesen forkastes! Bland side 33 : tabel over c -fordelingerne. Men kun udvalgte p-værdier 0, 5, og 0. %. 5% svarer til X =9.49 % til X =3.8 Dvs %<p-værdi<5% 5 Test for ingen association i R C tabeller Ingen sammenhæng melllem de to inddelingskriterier X rækkesum søjlesum forventet = total = alle celler En stor værdi af X er kritisk. ( observeret forventet forventet p-værdi findes i en c - fordeling med (R-(C- frihedsgrader. Test for ingen association i tabeller 7 Svangerskabs- Køn længde Dreng Pige Total 38 3 0 57 40 040 99 03 Total 35 35 07 Ingen sammenhæng mellem køn og svangerskabslængde Teststørrelsen kan let beregnes i hånden som: ( 3 99 0 040 07 X = =.40 < 3.84 57 03 35 5 p-værdi >0.05 Hypotesen kan accepteres! tabeller Status Population 0 a b n c d n s s 0 N Ingen association Test: ( a d b c N X = n n s s 0 Slåes op i en c -fordeling med frihedsgrad. 8 tabeller : Fishers eksakte test Amning og tandstilling: Ingen sammenhæng Problemer med tandstilling Amning Nej Ja Sum Bryst 4 0 Flaske Sum 5 37 4 For få data til at approksimationer kan bruges! Løsning: Fishers eksakte test (computer. Resultat (kun en p-værdi! Her: p-værdi=9% Konklusion: Data strider ikke mod : Ingen sammenhæng 9 Kommentarer til test for ingen association i tabeller Hvis der er 5 eller mindre i en af cellerne, så bør man bruge Fisher s eksakte test. Nogle anvender et kontinuitets (eller Yates korrigeret version af X - testet: ( a d b c N N X C = n n s s Det giver lidt større p-værdier. 0 Der er mange argumenter for og imod dette valg. Brug jeres tid på noget mere fornuftigt!!! 30 5